Logo

Grafici

Istogramma

🧭 Come si legge un istogramma? – Guida schematica e utile

✅ 1. Leggi gli assi

  • Asse X (orizzontale): rappresenta gli intervalli dei valori della variabile (es. consumo, età, punteggi).
  • Asse Y (verticale): mostra la frequenza (quante osservazioni cadono in ciascun intervallo).

✅ 2. Osserva la forma generale

  • Simmetrica → distribuzione equilibrata intorno alla media.
  • Asimmetrica a destra → pochi valori molto alti (coda lunga a destra).
  • Asimmetrica a sinistra → pochi valori molto bassi.
  • A campana → simile a una distribuzione normale.
  • Multimodale → più picchi = possibili gruppi o sottocategorie.

✅ 3. Identifica la modalità

  • La barra più alta mostra l’intervallo più frequente.
  • Ti dà un’indicazione della tendenza centrale.

✅ 4. Analizza la dispersione

  • Barre distribuite su intervalli ampi → alta variabilità nei dati.
  • Barre concentrate in uno stretto intervallo → bassa variabilità.

✅ 5. Cerca outlier o code

  • Barre isolate → possibili valori anomali (outlier).
  • Code lunghe → valori estremi meno frequenti.

📌 Riepilogo – Schema utile

Aspetto Cosa guardare Cosa indica
Asse X Intervalli della variabile Cosa stai misurando
Asse Y Altezza delle barre Frequenza delle osservazioni
Barra più alta Valore/modo più frequente Tendenza centrale
Forma simmetrica o no Asimmetria o code Squilibri, outlier
Larghezza complessiva Base dell’istogramma Variazione/dispersione nei dati

Boxplot

📦 Come si legge un boxplot? – Guida schematica e utile

✅ 1. Comprendi gli elementi base

  • Linea centrale nella scatola: è la mediana (valore centrale).
  • Bordi della scatola (box): indicano il 1° quartile (Q1) e il 3° quartile (Q3) → contengono il 50% centrale dei dati.
  • “Whiskers” (linee esterne): si estendono fino ai dati non considerati outlier, solitamente entro 1.5 × IQR.
  • Punti isolati fuori dai whiskers: sono outlier (valori anomali).

✅ 2. Valuta la simmetria

  • Se la mediana è centrata nella scatola e i whisker sono di lunghezza simile → distribuzione simmetrica.
  • Se la mediana è spostata o un whisker è molto più lungo → asimmetria.

✅ 3. Analizza la dispersione

  • Larghezza della scatola (Q3 - Q1) = Intervallo Interquartile (IQR) → misura la variabilità centrale dei dati.
  • Whisker lunghi → valori più dispersi.
  • Whisker corti → valori più concentrati.

✅ 4. Individua gli outlier

  • Punti fuori dai whiskers → valori estremi.
  • Importante valutarli nel contesto: errori? valori reali ma rari?

📌 Riepilogo – Schema utile

Elemento Cosa rappresenta Cosa ci dice
Linea centrale Mediana Tendenza centrale
Box (Q1 - Q3) Intervallo interquartile (IQR) Variabilità centrale
Whiskers Dati non-outlier Dispersione esterna
Outlier Valori fuori da 1.5 × IQR Valori estremi (da approfondire)
Simmetria Posizione mediana e lunghezza whiskers Forma della distribuzione (asimmetrie)

Violin Plot

🎻 Come si legge un violin plot? – Guida schematica e utile

✅ 1. Interpreta le componenti

  • Forma a “violino”: rappresenta la distribuzione dei dati tramite una curva di densità speculare.
  • Larghezza in ciascun punto verticale: indica quanto sono frequenti i valori in quell’intervallo.
  • Linea interna o box centrale (opzionale): include mediana e intervallo interquartile (IQR), come in un boxplot.

✅ 2. Valuta la densità

  • Le zone più larghe rappresentano concentrazioni di dati.
  • Le zone più strette indicano valori meno frequenti.
  • A differenza del boxplot, la distribuzione non è limitata a una forma rettangolare → puoi vedere la forma reale della distribuzione.

✅ 3. Analizza la simmetria

  • Se le due metà del violino sono simmetriche → distribuzione bilanciata.
  • Se una metà è più larga o più lunga → asimmetria.

✅ 4. Combina con il boxplot interno

  • Se presente, il box centrale fornisce la mediana e il range interquartile.
  • Aiuta a confrontare forma e centro della distribuzione contemporaneamente.

📌 Riepilogo – Schema utile

Elemento Cosa rappresenta Cosa ci dice
Larghezza del violino Densità di dati in ogni intervallo Frequenza relativa
Forma complessiva Distribuzione Simmetria, multimodalità
Box centrale (se presente) Mediana + IQR Tendenza centrale e variabilità
Estremità del violino Code della distribuzione Valori estremi (non necessariamente outlier)
Asimmetria visiva Differenza tra le due metà Squilibri nei dati

QQ plot

📈 Come si legge un Q-Q plot? – Guida schematica e utile

✅ 1. Cos’è un Q-Q plot?

  • Un Q-Q plot confronta i quantili di una variabile osservata con i quantili di una distribuzione teorica (di solito normale).
  • Serve per verificare se i dati seguono una certa distribuzione.

✅ 2. Leggi l’asse X e Y

  • Asse X: quantili attesi (dalla distribuzione teorica).
  • Asse Y: quantili osservati (dai tuoi dati).

✅ 3. Interpreta l’allineamento

  • Se i punti stanno sulla linea diagonale (linea di riferimento) → i dati seguono la distribuzione teorica (es. distribuzione normale).
  • Se i punti deviano dalla linea → i dati non seguono la distribuzione attesa.

✅ 4. Analizza le deviazioni

  • Deviazione in alto o in basso alle estremità → i dati hanno code più pesanti o leggere rispetto alla distribuzione teorica.
  • Curvatura a S o a gomito → indica asimmetria o skewness:
    • Curva a S (convessa-concava) → coda lunga a destra (asimmetria positiva).
    • Curva a gomito (concava-convessa) → coda lunga a sinistra (asimmetria negativa).

📌 Riepilogo – Schema utile

Aspetto Cosa osservare Cosa indica
Allineamento dei punti Segue la linea diagonale I dati seguono la distribuzione teorica
Deviazione alle estremità Code più o meno pesanti Differenze nella coda
Curvatura dei punti Forma a S o a gomito Asimmetria (skewness)
Distribuzione di confronto Di solito normale (ma può variare) Deve essere nota per interpretare correttamente

Scatter-plot

🔵 Come si legge uno scatterplot? – Guida schematica e utile

✅ 1. Cosa mostra uno scatterplot?

  • Ogni punto rappresenta una coppia di valori per due variabili quantitative (X e Y).
  • Serve a visualizzare relazioni, tendenze e correlazioni tra due variabili.

✅ 2. Leggi gli assi

  • Asse X (orizzontale): variabile indipendente (predictor).
  • Asse Y (verticale): variabile dipendente (risposta).

✅ 3. Osserva la tendenza generale

  • Andamento crescente (↗): correlazione positiva → all’aumentare di X, aumenta anche Y.
  • Andamento decrescente (↘): correlazione negativa → all’aumentare di X, Y diminuisce.
  • Nessun andamento visibile: assenza di correlazione → i dati sono sparsi casualmente.

✅ 4. Valuta la forza della relazione

  • Punti vicini a una linea ideale → relazione forte.
  • Punti molto dispersi → relazione debole.
  • La forza può essere valutata visivamente o con il coefficiente di correlazione.

✅ 5. Cerca pattern o anomalie

  • Gruppi separati → possibili sottogruppi (cluster).
  • Andamenti curvi/non lineari → possibile relazione non lineare.
  • Punti lontani dalla nuvolaoutlier (valori anomali).

📌 Riepilogo – Schema utile

Aspetto Cosa osservare Cosa indica
Distribuzione dei punti Densità, forma, direzione Tipo di relazione (positiva, negativa, nulla)
Linearità Allineamento lungo una retta Relazione lineare
Dispersione Vicinanza dei punti Forza della correlazione
Outlier Punti isolati Valori anomali da approfondire
Pattern insoliti Curve, gruppi, archi Relazioni non lineari o sottogruppi

Residual plot

♻️ Come si legge un residual plot? – Guida schematica e utile

✅ 1. Cos’è un residual plot?

  • Mostra i residui (errori) di un modello di regressione → la differenza tra i valori osservati e quelli previsti.
  • Asse X: valori predetti dal modello.
  • Asse Y: residui (valori osservati − valori predetti).

✅ 2. Obiettivo principale

  • Verificare se i presupposti della regressione sono soddisfatti:
    • Linearità
    • Omoscedasticità (varianza costante)
    • Assenza di pattern sistematici

✅ 3. Cosa cercare

Pattern Interpretazione
Punti distribuiti a caso ✅ Il modello è adeguato (errori casuali, omoscedastici).
Forma a U o curva ❌ Mancanza di linearità → forse serve un modello non lineare.
Funnel (apertura/chiusura) ❌ Eteroschedasticità → la varianza degli errori cambia.
Punti molto distanti ❗ Outlier nei residui → possibili casi problematici.

✅ 4. Cosa idealmente si vuole vedere

  • Una nuvola di punti distribuita in modo casuale attorno alla linea orizzontale y = 0.
  • Nessun pattern evidente → i residui sono indipendenti e distribuiti normalmente con media zero.

📌 Riepilogo – Schema utile

Aspetto Cosa osservare Cosa indica
Dispersione casuale Punti sparsi intorno a y = 0 Buon modello lineare
Pattern curvo o forma a U Trend sistematici nei residui Relazione non lineare
Funnel (cono aperto/chiuso) Varianza non costante Eteroschedasticità
Outlier nei residui Punti molto distanti Osservazioni anomale o influenti

Boxplot per residui gruppi

📦📊 Come si leggono i boxplot dei residui per gruppi? – Guida schematica e utile

✅ 1. Cosa mostrano questi boxplot?

  • Confrontano la distribuzione dei residui tra diversi gruppi (es. trattamenti, categorie).
  • Ogni box rappresenta la variabilità degli errori del modello all’interno di un gruppo.

✅ 2. Obiettivo principale

  • Valutare se il modello si comporta in modo coerente tra i gruppi:
    • Varianza simile? → ok
    • Mediana dei residui ≈ 0? → ok
    • Outlier concentrati in certi gruppi? → potenziale problema

✅ 3. Cosa osservare nei boxplot

Osservazione Interpretazione
Box simili in tutti i gruppi Residui distribuiti in modo coerente → modello stabile
Mediane vicine a 0 Il modello non sovrastima né sottostima i gruppi
Box molto diversi tra gruppi Eteroschedasticità → varianza non costante
Mediane lontane da 0 Sistematici errori di stima per alcuni gruppi
Molti outlier in un gruppo Dati problematici o mal modellati

✅ 4. Quando è utile usarli?

  • Dopo aver adattato un modello lineare con variabili categoriali.
  • Per controllare presupposti di omoscedasticità (es. ANOVA, regressione con fattori).
  • Per rilevare bias o incoerenze tra gruppi.

📌 Riepilogo – Schema utile

Aspetto Cosa osservare Cosa indica
Varianza dei box Simile tra gruppi Omogeneità delle varianze (buono)
Mediana Vicina a 0 in ogni gruppo Nessun bias sistematico
Outlier Concentrati in pochi gruppi Possibili anomalie
Differenze forti nei box Modello si adatta diversamente Violazione presupposti del modello

Diagnostica dei modelli

🧾 Interpretazione dei grafici diagnostici – check_model()

✅ 1. Residuals vs Fitted

  • Distribuzione casuale attorno alla linea orizzontale indica:
    • Corretta specificazione del modello
    • Varianza costante (omoschedasticità)
  • Pattern (curve, funnel) → possibile violazione di linearità o eteroschedasticità.

✅ 2. Q-Q Plot dei residui

  • Punti allineati alla diagonale → i residui seguono una distribuzione normale.
  • Deviazioni marcate alle estremità → possibili problemi di normalità (code pesanti o leggere).

✅ 3. Scale-Location (Spread vs Fitted)

  • Verifica la costanza della varianza dei residui.
  • Dispersione uniforme → ok.
  • Funnel o variazioni di ampiezza → eteroschedasticità.

✅ 4. Residuals vs Leverage

  • Identifica osservazioni influenti.
  • Punti con alto leverage e residui grandi → potrebbero avere impatto eccessivo sul modello.
  • Da esaminare singolarmente (possibili outlier o errori).

Predicted vs Actual

🔮 Interpretazione del grafico Predicted vs Actual

✅ 1. Cosa mostra questo grafico?

  • Confronta i valori previsti dal modello (asse X) con i valori osservati reali (asse Y).
  • Utile per valutare l’accuratezza del modello: quanto bene le previsioni replicano i dati osservati?

✅ 2. Interpretazione ideale

  • I punti dovrebbero allinearsi lungo la diagonale (linea y = x).
  • Una buona aderenza alla diagonale indica:
    • Previsioni accurate
    • Buona capacità del modello di rappresentare i dati reali

✅ 3. Segnali da osservare

Comportamento dei punti Cosa indica
✅ Allineamento lungo la diagonale Previsioni vicine ai valori reali (ottimo)
❌ Deviazione sistematica Bias del modello (sottostima o sovrastima)
❌ Dispersione elevata Previsioni poco precise
❌ Pattern curvi o gruppi Modello mal specificato o relazioni non lineari

✅ 4. Quando usarlo?

  • In ogni modello di regressione o predizione (lineare, logistico, machine learning).
  • Per valutare la qualità globale delle previsioni.

Curva di potenza

⚡ Interpretazione della Curva di Potenza (Power Curve)

✅ 1. Cos’è la curva di potenza?

  • Mostra come la probabilità di rilevare un effetto reale (potenza statistica) varia al cambiare della dimensione dell’effetto o del numero di osservazioni.
  • Asse X: Dimensione dell’effetto o dimensione del campione (n)
  • Asse Y: Potenza statistica (P = 1 - β), cioè la probabilità di rifiutare correttamente H₀.

✅ 2. Interpretazione dei valori

  • Una potenza ≥ 0.80 (80%) è considerata adeguata → bassa probabilità di errore di tipo II.
  • Valori più bassi indicano scarsa sensibilità del test → alto rischio di non rilevare un effetto reale.
  • La curva mostra quanta potenza si guadagna aumentando il campione o l’effetto.

✅ 3. Cosa osservare nella curva

Forma della curva Interpretazione
📈 Curva crescente e appiattita All’aumentare di n, la potenza si stabilizza
🎯 Punto in cui P ≈ 0.80 Soglia ottimale per scegliere la dimensione campione
❗ Curva piatta a valori bassi Effetto troppo piccolo per essere rilevabile

✅ 4. Quando usarla?

  • In fase di pianificazione dello studio → per determinare quanti soggetti servono.
  • Per verificare se un test ha potenza sufficiente a rilevare un effetto atteso.

📌 Obiettivo finale

  • Assicurarsi che il test abbia un’alta probabilità di successo, evitando sprechi di risorse o conclusioni false negative.